14. 练习:Epsilon 贪婪策略

练习:Epsilon 贪婪策略

在上个部分,你学习了 \epsilon 贪婪策略。

为了构建一个相对于当前动作值函数估值 Q\epsilon 贪婪策略的策略 \pi,我们只需设置

针对每个 s\in\mathcal{S}a\in\mathcal{A}(s)。注意,\epsilon 必须始终是 0-1(含)之间的值(即 \epsilon \in [0,1])。

你可以将遵守 \epsilon 贪婪策略的智能体看做始终可以操控硬币方向(可能不公平),正面朝上的概率是 \epsilon。观察状态后,智能体就会抛掷该硬币。

  • 如果硬币背面朝上(因此概率为 1-\epsilon),智能体选择贪婪动作。
  • 如果硬币正面朝上(因此概率为 \epsilon),智能体从一组潜在(非贪婪贪婪)动作中均匀地随机选择一个动作。

在这道练习中,你将回答几个问题以检验你的知识理解情况。

以下哪个 ε 值会生成一个保证始终会选择贪婪动作的 Epsilon 贪婪策略?请选中所有适用项。

SOLUTION:
  • (1) epsilon = 0

以下哪个 ε 值会生成一个保证始终会选择非贪婪动作的 Epsilon 贪婪策略?请选中所有适用项。

SOLUTION:
  • (5) 所有 ε 值都不满足该要求。

以下哪个 ε 值等同于等概率随机策略(在每个状态,每个动作被选中的概率是一样的)的 Epsilon 贪婪策略?

SOLUTION:
  • (4) epsilon = 1

以下哪个 ε 值会生成一个满足以下条件的 Epsilon 贪婪策略:智能体可能会选择贪婪动作,但是可能会选择非贪婪动作?换句话说,如何确保智能体选择每个可选(贪婪和非贪婪)动作的概率非零?

SOLUTION:
  • (2) epsilon = 0.3
  • (3) epsilon = 0.5
  • (4) epsilon = 1